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摘 要 : 在 基于 位 置 的 社交 网 络 中 用 户 链接 与 位 置 链接 之 间 具 有 一 定 的 内 在 关联 ， 而 且 不 同 的 用 户 在 社交 网 络 中 表 
现 也 存在 差异 。 因 此 ， 对 于 以 上 问题 提出 一 种 协作 式 个 性 化 链接 预测 算法 。 针 对 用 户 的 个 性 化 特征 ， 采 用 核 密度 估 
计 方式 对 用 户 在 时 间 和 空间 维度 建 模 ， 基 于 兴趣 组 对 用 户 进行 重合 社团 划分 ， 并 通过 社团 、 好 友 以 及 签到 关系 进行 
个 性 化 用 户 链接 预测 。 基 于 个 性 化 用 户 链接 预测 结果 ， 利 用 从 社团 重启 的 随机 游 走 预测 用 户 的 个 性 化 位 置 链接 。 协 
作 式 个 性 化 链接 预测 工法 通过 用 户 链接 预测 和 位 置 链接 预 测 的 选 代 使 得 二 者 性 能 相互 提升 ， 实 验 结果 表明 ， 所 提 算 
法 相 比 于 现 有 算法 具有 更 好 的 预测 性 能 。 
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Cooperation based personalized link prediction algorithm in LBSN 
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(1. School of Communication & Information Engineering, Chongqing University of Posts & Telecommunications, 
Chongqing 400065, China; 2. Chongqing Engineering Research Center of Communication Software, Chongqing 400065, 
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Abstract: There is a certain internal relationship between user links and location links in location-based social 
network(LBSN) , and different users also have different behaviors in the network. Therefore, view of the above problem, a 
Cooperation based personalized link prediction algorithm(CPP) is proposed in LBSN. For the user's personalized features, 
the kernel density estimation method is used to model the user's time and spatial dimensions. The interest groups were used 
to divide the users into overlapping communities, and the personalized user link prediction was performed through the 
community, friends and sign-in relationships. Based on the prediction of the personalized user link, a personalized link 
relationship between users and locations was predicted via the algorithm of the random walk with community restarting. 
The CPP algorithm improves the performance by the iteration of the user link prediction and the location link prediction. 
The experimental results show that the CPP algorithm has better prediction performance than that of the existing algorithm. 
Key words: link prediction; location-based social network; kernel density estimation; personalization; random walk 


0 az 户 与 用 户 之 间 的 链接 , 另 一 类 是 预测 用 户 与 位 置 之 间 的 链接 。 
p 针对 用 户 与 用 户 链接 预测 问题 ，Valverde-Rebaza 等 人 中 考虑 

随 着 社交 网 络 的 快速 发 展 和 移动 智能 终端 的 不 断 普及 ， 用 户 之 间 的 关系 强度 和 用 户 位 置信 息 ， 结 合用 户 的 社交 模式 
基于 位 置 的 社交 网 络 (location-based social network, LBSN) 逐 ” 和 移动 模式 来 提高 链接 预测 的 准确 性 。 丁 勇 等 人 中 提出 从 兴 
渐 成 为 人 们 维系 社交 关系 、 分 享 位 置信 息 的 理想 网 络 平台 叫 。 ” 趣 、 距 离 和 熟识 度 三 个 属性 构建 好 友 推 荐 模型 ， 此 外 ， 还 考 
越 来 越 多 的 用 户 习 惯 使 用 智能 终端 在 社交 网 络 平台 上 进行 位 虑 了 用 户 的 交友 偏好 属性 。Bayrak 等 人 中 提出 不 同类 别 位置 
置 签到 ， 但 是 随 着 用 户 数 的 增加 令 网 络 数 据 量 爆发 增长 ， 从 ”对 于 链接 建立 的 影响 程度 不 同 ， 提 出 两 种 新 的 基于 类 别 的 特 
而 导致 网 络 信 息 过 载 趾 。LBSN 中 的 链 路 预测 研究 可 以 帮助 征 ， 从 而 提高 用 户 的 链接 预测 性 能 。 针 对 用 户 与 位 置 链 接 预 


用 户 从 海量 数据 中 发 现 潜在 的 用 户 链接 关系 ， 并 推荐 用 户 感 WMA, Pavlos 等 人 外 考虑 了 用 户 评论 的 社会 影响 和 用 户 签 
兴趣 的 其 他 用 户 或 者 位 置信 息 ， 对 于 把 握 LBSN 结构 的 演化 。 到 的 空间 影响 特征 ， 通 过 考虑 这 两 个 特征 ， 预 测 用 户 与 位 置 
规律 ， 增 加 用 户 对 LBSN 平台 的 忠诚 度 等 方面 具有 重要 的 下 的 链接 关系 。 李 蠢 等 人 中 提出 了 一 种 在 LBSN 上 基于 兴趣 圈 


究 意义 和 应 用 价值 中 。 社会 关系 模型 ， 使 用 社会 关系 包含 朋友 关系 和 专家 用 户 ， 通 
链接 预测 根据 网 络 结构 以 及 网 络 中 己 有 信息 发 现 并 且 还 ”过 这 两 个 规则 化 项 作为 矩阵 分 解 目标 函数 的 约束 项 ， 来 提高 
原 网 络 中 缺失 的 信息 ， 或 者 预测 未 来 节点 之 间 可 能 存在 的 关 ”预测 用 户 与 位 置 的 链接 性 能 。Hosseini 等 人 09 认 为 用 户 和 位 


系 ， 其 研究 对 于 好 友 推 荐 ， 兴 趣 点 推荐 等 应 用 具有 重要 的 现 。 置 之 间 应 当 存 在 一 种 对 应 关系 ， 即 如 果 用 户 喜欢 在 工作 日 活 
KEAL, 动 ， 那 么 应 当 给 用 户 推荐 工作 日 受 欢迎 的 位 置 ， 同 理 ， 对 于 
目前 LBSN 中 的 链接 预测 主要 分 为 两 类 ， 一 类 是 预测 用 爱 周 末 活 动 的 用 户 ， 应 当 给 其 推荐 周末 受 欢 迎 的 位 置 。 
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上 述 方法 分 别 以 相互 独立 的 目的 来 预测 用 户 与 用 户 链 # E, = E„ UE, UE, 表示 网 络 中 的 边 集合 , 本 文中 所 描述 的 边 
关系 以 及 用 户 与 位 置 的 链接 关系 ， 没 有 考虑 二 者 之 间 的 相关 为 有 向 边 。 
性 ， 然 而 现实 中 两 者 之 间 并 非 毫 无 关联 。 例 如 ， 如 果 两 个 用 W, =W, UW, UW, 表示 网 络 中 边 权 值 集合 。 
户 之 间 存 在 链接 关系 ， 则 他 们 很 有 可 能 在 相同 的 位 置 签到 。 首先 根据 相关 定义 划分 用 户 群 体 ,构建 初始 预测 空间 c 。 
另外 ， 如 果 两 个 用 户 经 常 在 相同 的 位 置 签到 ， 则 他 们 很 有 可 然后 ， 通 过 本 文 提出 的 链接 预测 算法 ， 预 测 网 络 中 可 能 存在 
能 存在 链接 关系 。 因 此 ， 用 户 链接 和 位 置 链 接 之 间 存 在 较 强 的 用 户 链接 E; 和 位 置 链 接 E;， 相 关 问题 定义 表示 为 
的 关联 性 ， 并 且 能 够 相互 促进 彼此 链接 预测 性 能 。 目 前 ， 将 G, (U,,P,, E, W,) ou DR Ej G) 
这 两 个 问题 联合 解决 的 工作 还 很 少 。Zhang 等 人 0 提出 一 种 c ke; 
新 的 链接 预测 方法 TRAIL, 通过 最 大 化 用 户 链接 预测 和 位 置 1.1 问题 输入 
链接 预测 乘积 , 得 出 最 优 用 户 链接 和 位 置 链接 关系 。 文献 [12] 基于 上 述 定义 ， 本 文 研究 内 容 的 输入 为 : 
提出 一 种 锚 链 接 预 测 方法 ， 锚 链接 预测 包括 用 户 的 社交 ， 空 a) 带 权 异 构 网 络 G=U,P, E,W) ; 
间 和 文本 信息 预测 。 b) 初始 预测 空间 C 。 
在 现实 生活 中 ， 地 理 位 置 的 邻近 性 对 于 用 户 的 签到 行为 1.2 问题 输出 
有 着 显著 影响 ， 上 述 研 究 虽 然 有 些 考 虑 到 了 用 户 与 位 置 链 接 在 给 定 基 于 位 置 的 社交 网 络 中 的 带 权 异 构 网 络 
预测 的 协作 性 ， 却 未 能 有 效 融 合 地 理 位 置信 息 对 预测 性 能 的 G, - (U,. P. E, W,) 以 及 初始 预测 空间 c 的 前 提 下 解决 问题 如 下 : 
影响 。 目 前 有 以 下 两 种 考虑 位 置信 息影 响 的 方法 ， 第 一 种 是 a) 如 何 对 用 户 个 性 化 建 模 ? 使 用 非 参 数 估计 方法 中 的 
根据 用 户 与 位 置 的 距离 远近 ， 过 滤 到 距离 用 户 比 较 远 的 位 置 核 密度 估计 ， 针 对 每 个 用 户 签到 时 间 以 及 用 户 空间 位 置 容忍 
B. 第 二 种 是 将 用 户 的 签到 数据 建 模 为 一 种 概率 分 布 函数 09。 度 个 性 化 建 模 。 优 点 是 不 需要 提前 假定 样本 的 分 布 特性 ， 适 
第 二 种 方法 对 于 地 理 位 置信 息 使 用 考虑 更 加 严谨 ， 所 以 得 到 用 于 小 样本 数据 集 。 时 间 建 模 使 用 针对 时 间 标 量 的 一 维 核 密 
的 链接 预测 性 能 也 较 好 。 但 是 ， 不 同 的 用 户 对 于 空间 位 置 的 度 估计 方式 ， 空 间 建 模 使 用 针对 经 纬度 坐标 向 量 的 二 维 核 密 
容忍 度 不 同 ， 建 立 统一 的 概率 分 布 模型 掩盖 了 用 户 的 个 性 化 度 估计 方式 。 
特征 ， 使 得 用 户 个 性 化 特征 丢失 ， 影 响 预测 准确 度 。 另 外 ， b) 如 何 设计 用 户 个 性 化 链接 预测 算法 , 并 同时 解决 基于 
用 户 的 签到 习惯 也 不 相同 ， 不 同 的 用 户 喜欢 出 去 的 时 间 也 不 位 置 社交 网 络 中 的 用 户 链接 预测 和 位 置 链接 预测 问题 ? 根据 
司 ， 通 过 更 加 匹配 用 户 的 习惯 将 会 进一步 提高 算法 的 预测 性 用 户 历史 签到 位 置 得 到 用 户 兴 趣 组， 再 依据 兴趣 组 对 用 户 进 
能 。 因 此 ， 本 文通 过 对 每 一 个 用 户 进行 个 性 化 建 模 ， 更 行 社 团 划分 。 利 用 用 户 链接 预测 方法 计算 两 个 用 户 间 链接 芯 
加 准确 的 把 握 不 同 用 户 在 空间 位 置 和 行为 习惯 上 的 个 性 化 特征 。 概率 ,并 使 用 用 户 时 间 维 度 的 个 性 化 特征 更 新 用 户 链接 概率 。 
首先 ,考虑 用 户 链接 预测 和 位 置 链 接 预测 的 协作 性 问题 ， 通过 社团 重启 的 随机 游 走 得 到 每 个 社团 中 的 重要 位 置 ， 并 通 
再 者 考虑 不 同 用 户 的 个 性 化 特征 。 本 文 提出 一 种 LBSN 中 基 过 用 户 空间 维度 的 个 性 化 特征 更 新 每 个 用 户 的 位 置 链 接 概率 ， 
于 协作 式 的 个 性 化 链接 预测 算法 (cooperation based 最 后 通过 从 代 用 户 链接 以 及 位 置 链接 ， 从 而 使 二 者 性 能 相互 
personalized link prediction，CPP)， 从 一 种 新 的 角度 提高 基于 提升 ， 得 到 本 文 的 预测 结果 E; UE; 。 


立 置 的 社交 网 络 链接 预测 性 能 。 i m 
位 置 的 社交 网 络 链接 预测 性 外 2 ”用 户 个 性 化 建 模 

问题 描述 、 EERM 
1 BA 目前 大 量 研究 都 是 使 用 全 局 用 户 数据 进行 建 模 ， 极 少 考 
其 于 位 置 的 社交 网 络 可 以 视 作 是 由 不 同类 别 节 点 和 边 组 。” 虑 用 户 个 性 化 行为 习惯 和 个 人 喜好 ， 从 而 造成 用 户 个 性 化 信 
成 的 异 构 网 络 ， 本 文 使 用 三 元 组 G6=(V,5 仿 来 表示 ， 其 中 ,Vv 息 损 失 。 本 文 根 据 用 户 的 签到 数据 ， 分 别 从 时 间 和 空间 两 个 
表示 节点 集合 ，E 表示 边 集 合 ，4 表 示 节 点 类 型 集合 。 通 过 ”角度 对 单个 用 户 进行 个 性 化 建 模 ,从 而 获取 用 户 个 性 化 特征 ， 


几 个 相关 定义 来 更 好 的 说 明 问 题 。 进一步 提高 用 户 链接 预测 和 位 置 链接 预测 的 准确 性 。 本 文采 
定义 1 兴趣 组 。 假 如 用 户 “ 和 用 户 " 都 在 类 别 为 < 的 用 核 密度 估计 方法 来 对 用 户 进行 个 性 化 建 模 。 
位 置 签 到 ， 则 定义 用 户 “* 和 用 户 " 属 于 同一 个 兴趣 组 c。 2.4 核 密 度 估计 
定义 2 ”本 地 位 置 重要 度 (local location importance, 核 密 度 估 计 是 一 种 非 参 数 的 估计 方法 ， 它 的 优点 是 不 需 
LLI)。 给 定 用 户 weU，U 表示 所 有 用 户 集合 。 令 psP ，P 为 要 提前 假定 样本 的 分 布 ,可 以 根据 样本 本 身 发 现 其 分 布 特征 。 


" 


用 户 " 访 问 过 的 位 置 集合 ，N. RRAS WEIRIG no 相 比 于 参数 估计 方法 ， 吕 免 了 复杂 的 分 布 假设 以 及 参数 回归 
表示 用 户 “ 在 位 置 ?签到 的 次 数 。 本 地 位 置 重要 度 为 位 置 > 相 ”过程 ， 使 得 估计 样本 分 布 变 得 简单 高 效 ， 因 此 ， 核 密度 估计 


g 


对 于 用 户 “ 访 问 过 的 所 有 位 置 的 重要 度 ， 公 式 为 方法 很 适用 于 对 单个 用 户 个 性 化 建 模 。 根 据 样本 对 象 数据 维 
LLL (p) -1/ logi y (1) RE i m, 可 以 将 核 密度 估计 分 为 一 维 核 密度 估计 和 多 维 核 密 
N, 度 估计 。 
定义 3 全 局 位 置 重要 度 (global location importance, 2.1.1 一 维 核 密度 估计 
GLD. WV, 表示 所 有 用 户 在 位 置 ? 签 到 的 总 次 数 ， 其 他 符号 定 假设 4,%…,%) 是 取 自 于 一 个 独立 同 分 布 样本 的 随机 变 
义 与 上 述 相 同 。 全 局 位 置 重 要 度 为 用 户 “* 相 比 于 其 他 用 户 对 EES, S 表示 其 未 知 的 概率 密度 函数 。 则 其 核 密度 估计 公 
位 置 ? 的 重要 度 ， 公 式 为 式 为 
GLI, (p) = ooet Q) jo Dx G-x)- xe. (4) 
为 了 形式 化 地 描述 本 文 研 究 的 科学 问题 ， 本 文 将 LBSN 其 中 :n>0 表示 窗 宽 值 ，k() 为 核 函 数 ， 且 核 函数 需要 满足 以 


建 模 为 带 权 异 构 网 络 形式 ， 使 用 四 元 组 G, = (U,,P,, E, W,) 表示 。 下 条 件 : 
HP: U, =tu 表示 用 户 节点 集合 。 
P, = {P Po Pa) 表示 位 置 节 点 集合 。 


fka, =1, fuka, =0 (5) 
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2.1.2 多 维 核 密度 估计 
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户 之 间 的 相似 性 ， 会 造成 严重 的 偏差 ， 因 而 通过 连续 的 核 密 


当 样 本 对 象 从 标量 形式 转换 成 4 维 向 量 时 ， 样 本 的 密度 


分 布 函数 就 变 为 多 维 核 密 度 估计 。 假 定 有 "个 4 维 
.zx) ， 且 服从 独立 同 分 布 概率 密度 函数 / 。 则 其 
核 密度 估计 为 


量 a, 


^ 1 2 X-—2, 
ELK d 
T9 nhh,...h, ^ > ( h ) 


的 随机 变 


CE HE 


(6) 


其 中 :多 维 核 密 度 估计 的 核 函数 由 一 维 核 函 数 的 乘积 构成 
Kk fpi (7) 

Tp a2 时 ， 即 为 二 维 核 密 度 估计 函数 。 
22 用 户 个 性 化 时 间 建 模 

在 实际 生活 中 ， 不 同 用户 存 在 不 同 的 生活 习惯 ， 有 的 用 
户 喜欢 在 白天 出 去 并 签到 , 有 的 用 户 喜 欢 在 晚上 出 去 并 签到 ， 
这 些 签到 行为 往往 反映 出 他 们 的 个 人 喜好 以 及 生活 习惯 。 因 
此 ， 两 个 用 户 签到 行为 分 布 越 相 似 ， 则 他 们 越 可 能 具有 相同 
的 个 人 爱好 以 及 行为 习惯 ， 根 据 同 质 性 理论 05， 则 可 以 认为 
他 们 成 为 好 友 链 接 的 可 能 性 越 大 。 


首先 , 用 户 在 一 天 24 小 时 均 存 在 出 去 签到 的 可 能 ， 
使 概率 函数 不 存在 严重 偏差 ， 本 文 将 
等 分 ， 对 应 一 AUT ZA PIRR, 然后 统计 用 
间 槽 的 签到 频率 。 


户 在 这 24 


AL 


为 了 


户 签到 时 间 分 为 24 


个 时 


中 ， 本 文 统 计 了 用 户 “ 和 用 户 " 的 签到 


piu 


时 间 频 率 , 结果 如 图 1 所 示 。 


其 中 , 直方 图 分 别 表 示 了 用 


RUM P? v 的 签到 时 


和 * 的 签到 习惯 有 着 较为 明显 差异 ， 因 此 ， 可 以 认为 二 
签到 行为 习惯 上 存在 较 低 的 相似 性 。 
15 4 
t 
X 10: 
m 5| 
过 
0 
10 — 15 20 25 
签到 时 间 (h) 
(a) 用 户 “ 的 签到 分 布 
15 | 
x 10 4 
n 
E 


10 15 20 25 

签到 时 间 (h) 
(b) FH P v 的 签到 分 布 
图 1 用 户 签到 分 布 

Fig. 1 User sign-in distribution 

上 述 方法 虽然 可 以 判 
达到 理想 的 结果 , 因为 将 一 天 划分 为 24 个 时 间 模 ,这 档 
致 时 间 模 内 不 同 的 时 间 点 ， 签 到 频率 却 相同 ， 
逻辑 。 因 此 ， 可 以 采用 高 斯 核 函 数 建立 | 
核 密度 估计 分 布 ， 如 图 1 中 的 曲线 。 
f£ Ta) uf UA: 
行为 分 布 ; by T 3$ $9] RTE ELT FP s 
间 槽 中 均 不 存在 签到 行为 ， 


如 若 采 用 离散 统计 的 思 * 


间 频 率 分 布 情况 。 从 图 中 可 以 看 出 用 户 v 


者 在 


断 用 户 之 间 的 相似 性 ， 但 是 却 难以 


会 导 


这 显然 不 符合 
j 户 基于 签到 时 间 的 
使 用 连续 分 布 表 示 优 势 
全 确 的 反映 出 用 户 在 一 天 中 连续 时 间 下 的 签到 
他 们 在 大 部 分 的 时 
Bir 


度 估计 分 布 可 以 有 效 缓解 该 问题 。 

假设 用 户 “ 在 时 间 段 ; 的 签到 概率 为 已 G) ， 在 一 维 核 密 
度 估 计 下 ， 通 过 余弦 相似 度 函 数 得 到 两 个 用 户 的 相似 值 
公式 如 下 : 


sim, (u,v) , 


Ès BGB) 
NETTO 


sim, (u,v) = cos(u, v) = 


(8) 


其 中 : s, 为 签到 时 间 集合 。 
2.3 用 户 个 性 化 空间 建 模 
本 文采 用 二 维 核 密 


度 估 计 方 式 ， 以 挖掘 单个 用 户 对 新 的 
位 置 签到 的 概率 。 令 5,=(p,P…,p,) ， 表 示 用 户 “ 访 问 的 位 置 
集合 。 利 用 二 维 核 密度 估计 方式 获得 用 户 “* 访 问 某 一 个 新 位 
置 ? 的 概率 POIS) : 


RPIS)S 


KC Piy (9) 


ed HÀ BARDEN KS 
经 度 ，lon 表示 纬度 。 KO 表示 核 函 数 ，o 表示 平滑 窗口 ， 也 


称 为 窗 宽 。 
AOF, 核 


函数 选择 的 是 标准 的 高 斯 核 函数 , 表示 如 下 : 


(10) 


1 1 
K(x) = —exp(--z'z) 
2x 2 


最 优 窗 宽 设 定 为 v= n5 ees > À 和 5 分 别 表 示 & 集合 中 
经 度 值 和 纬度 值 的 均值 和 方差 ， 计 算 公式 如 下 : 


3 ”协作 式 个 性 化 链接 预测 算法 


3.1 社团 划分 

传统 社交 网 络 中 社团 划分 采用 基于 网 络 结构 的 划分 方式 ， 
本 文 为 了 更 好 地 挖掘 相同 兴趣 群体 的 用 户 ， 利 用 上 述 兴 趣 组 
的 定义 为 用 户 划 分 社团 。 如 图 2 所 示 ， 由 于 一 个 用 户 可 能 会 
访问 多 个 位 置 ,而 且 同一 个 位 置 也 可 能 属于 多 个 类 别 。 因 此 ， 
基于 兴趣 组 划分 出 来 的 社团 为 一 个 重 闪 社团 ， 即 一 个 用 户 可 
能 属于 多 个 社团 。 基 于 兴趣 组 的 划分 方式 ， 将 6, 划分 为 了 
x4C| 个 社团 ， 则 可 以 构造 一 个 N*K 的 用 户 -社团 矩阵 ， 记 作 


Fo .=1 表示 用 户 “* 属 于 社团 rc ， 反 之，.=0 表示 用 户 “ 不 
属于 社团 。 。 
3.2 ”用户 链接 预测 

如 果 用 户 “ 和 用 户 ， 属 于 同一 个 社团 ， 则 表明 他 们 二 者 


存在 相似 的 兴趣 爱好 ， 当 他 们 拥有 的 共同 社团 越 多 ， 则 相似 
度 也 就 越 大 ， 从 而 产生 链接 的 可 能 性 也 越 大 。 本 文 根 据 文献 
[16] 中 的 方法 计算 社团 “中 的 两 个 用 户 “," 的 链接 概率 为 


RI) -1-exp-F, F.) (13) 
AURI P nr 中 有 一 个 不 属于 社团 < ， 则 =0 或 &.=0， 
且 Rx(O=0。 由 于 用 户 可 能 会 属于 多 个 社团 ， 则 “,* 不 存在 链 
接 的 概率 可 表示 为 
1-5 =[ [a- fie» exec, R E) (14) 
Erb: u,v 存在 链接 的 概率 PO 为 
P (c) -A- exp - 9 FR) (15) 
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(a) 基于 位 置 的 社交 网 络 图 (b) 基于 位 置 类 别 划分 用 户 兴趣 组 (c) 基于 位 置 类 别 划分 用 户 兴趣 组 
社会 关系 签到 关系 
图 2 基于 兴趣 组 划分 社团 


Fig.2 Based on interest groups to divide community 


于 用 户 共同 签到 的 位 置 个 数 以 及 用 户 共 同好 友 的 个 数 


也 对 链接 存在 概率 有 影响 。 因此 , 可 以 将 式 (15) 做 如 下 修正 : 


P! (c)=1-8 exp) US, -UX)- B-exp- 9 E, -F.)- 


= 


3-6) exp) PX P) de) 


其 中 :， 表示 用 户 


uox vind %=1 表 示 用 户 “ 和 ww 存 


在 好 友 关 系 ; P' 表示 
在 位 置 7 有 过 签到 ， 


用 户 -位 置 关 系 和 矩阵 ，R; =1 时 表示 用 户 “ 
通过 以 上 方式 可 以 得 到 网 络 中 每 个 用 户 


与 其 他 用 户 产生 链接 的 概率 。 在 此 基础 上 ， 考 虑 用 户 之 间 关 


于 签到 时 间 分 布 的 相似 性 sim, u) , 将 用 户 个 性 化 的 行为 习惯 


进行 匹配 ， 对 每 个 用 户 与 其 他 非 好友 用 户 的 链接 存在 概率 进 


由 于 存在 两 种 类 型 的 边 ， 且 本 文 认为 同 种 类 型 边 之 间 ， 


移 概率 相同 , 则 两 个 用 户 节点 2 


EXE d IN, Qi) DOHIN, u) 0 
P. " : 
w(u',u) = DEN H |N, Qu) >0E |N, Qu) |=0 
0 其 他 


行 更 新 ， 更 新 方式 如 下 : 


Br = Pr ssim, (u,v) (17) 


H.A; sim,(u,v) 表示 
3.8 位置 链接 预测 
为 合理 预测 用 


用 户 基于 签到 时 间 的 相似 度 。 


户 与 位 置 之 间 的 链接 关系 ， 本 文 首 先 作出 


以 下 假设 : 给 定 一 个 目标 用 户 “sc ， 则 认为 用 户 “ 会 更 愿意 


访问 对 于 社团 c 来 说 重要 的 位 置 , 如 果 用 户 “ 属 于 多 个 社团 ， 


则 用 户 更 愿意 访问 的 位 置 由 多 个 社团 综合 决定 。 
为 了 找到 社团 。 中 的 重要 位 置 ， 本 文采 用 从 社团 6 重启 


0 


的 随机 游 走 ， 如 下 所 示 : 


0 2, wur? + 


ob. 必 表示 用 户 


18) 

ge X, Wp ( 
pr'eN, n) C, 

n, -70-0 2) ww prz? (19) 

节点 的 到 达 概 率 ， 必 表示 位 置 节点 的 到 


LRK, CGEGNGATQUCR S N00 为 用 户 “ 的 邻居 用 户 集合 ， 


No 为 用 户 “的 邻居 位 置 集合 ，WN,(p) 为 位 置 ? 的 邻居 用 户 集 
fr. war 为 用 户 节 


当 (wweE 时 , P. 
由 于 不 同位 置 对 于 用 户 的 重要 程度 不 同 ， 本 文 需要 
位 置 ? 对 于 用 户 “ 的 重要 性 w(p) ， 本 文 主要 采用 定义 的 


其 转 


间 的 转移 概率 可 以 设置 如 下 : 


Q1) 


-1, 否则 R, 等 于 (ww 的 存在 概率 六 o 


位 置 重 要 度 和 全 局 位 置 重要 度 来 量化 该 指标 ， 即 


w,Cp) = LLL (p) GLL (p) 


则 用 户 到 位 置 的 转移 概率 可 以 表示 如 下 : 


àw, (p) 


> x 


w(u, p) — X Uo 
> ow» 


p 
0 


Jml 


当 基于 社团 6 


TIN, Qu) |>0 且 |N,(w) 1>0 


WAP) O IN (u) 0E |N, GO Fo 


其 他 


启 的 随机 游 走 达到 收敛 时 ， 该 社团 


位 置 节点 的 到 达 概 率 ", 可 以 理解 为 在 社团 下 各 位 置 


要 程度 ， 如 下 所 示 : 


由 于 网 络 中 存在 & 个 社团 , 所 以 可 以 得 到 社团 -位 置 


量化 
本 地 


(22) 


Q3) 


下 各 
的 重 


Tua m aas ul 


ac, WFR: 


点 之 间 的 转移 概率 ，w'0 为 位 置 p 到 用 


户 " 的 转移 概率 ，vwtw' 为 用 户 … 到 位 置 的 转移 概率 。* 为 
随机 游 走 的 重启 概率 , 如 果 " 属于 社团 nts RŽ 0. 


因为 位 置 节点 仅 与 用 户 相连 ， 所 以 位 置 节点 与 用 户 节点 
之 间 的 转移 概率 可 以 表示 为 


1 
w(p,u) = 一 一 一 2 
N,(p) (20) 


用 户 节 点 可 与 位 置 节 点 或 用 户 节点 相连 ,为 了 协调 用 户 


节点 与 位 置 节 点 和 | 


户 节 点 的 权重 关系 ， 引 入 调节 参数 、。 


tad 


的 重要 程度 。 


上 述 通 过 社团 关系 选 出 的 重要 位 置 ， 是 从 与 目标 用 


A? -—[r jr Tul 


TUB TE Hl-br SURE 4* 和 用 户 -社团 关系 F 的 乘积 表 
社团 驱动 下 的 用 户 * 访 问 位 置 >” 的 概率 ， 计 算 公 式 如 下 


PY =D Fe Ay 
zi 


Q4) 
AREE 


(25) 
示 在 


Q6) 


P: c 表示 网 络 中 的 所 有 社团 ，4 表示 位 置 p' 在 社团 < 


有 相似 兴趣 的 样本 用 户 集 合 中 总 结 出 的 位 置 ， 是 从 兴趣 


户 具 


7N 


层面 


得 到 的 。 然 而 ， 由 于 地 理 位 置 的 影响 ， j 户 并 不 定 会 去 访 


问 这 些 位 置 ， 例 如 ， 


Ho WHP” 喜欢 旅游 ， 经 常 环 游 各 国 ， 如 果 从 兴趣 层 


用 户 “ 是 一 个 宅男 ， 很 少 访问 较 远 


的 位 


面 发 


SLM Pr ur 都 对 位 置 ?比较 感 兴趣 ， 且 位 置 ? 离 用 户 “ 


距离 均 较 远 ， 考 虑 到 用 


"f 
多 


户 4 可 能 对 于 距离 的 容忍 度 低 于 


用 户 
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"， 则 可 以 认为 月 


个 


预测 


H, 
j 户 是 否 


和 每 个 


本 文通 过 


灵 面 得 到 的 访 


问 


SUIT: 


Py = PY -P(p\S,) 


内 中 :表示 


阵 ， 如 下 : 


WERE. 
文中 用 
共 邻 用 户 数 ， 


用 


POER C DOS Hl 
新 之 后 ， 就 可 以 开始 新 
本 文 的 算法 描 i 
户 链接 ] 
b 为 补 
置 链接 预测 算法 复杂 


D 
Qu = 
(Poe 


HPY =0 
其 他 


胡 敏 ， 等 : 


HP? "iig p 的 概率 会 小 于 用 户 "。 因 此 ， 
会 去 访问 某 个 位 置 需要 后 
户 的 位 置 空间 容忍 度 考虑 。 
用 户 的 个 性 化 空 
忍 度 下 访问 位 置 ? 的 概率 P(p15,)， 从 而 更 新 用 户 “ 从 兴 
概率 和 矩阵， 更 新 公 


间 建 模 ， 得 到 用 


户 4 可 能 会 访问 ?的 概率 , fig Psy P 


Pw rep frt ?的 概率 。 对 e d 


LBSN 


户 在 自 


Q8) 


轮 的 ) 


度 为 O(bmt, (m n)) , 


PASSE 
n J BG BLUE XE CS UK 


1 tt Be PII UL br. Bl e 
述 如 算法 1 所 示 。 

预测 算法 复杂 度 为 o(a+b+mm)， 其 中 4 为 
AZG m JIER 


“为 用 户 数 。 位 


数 。 假 设 相互 迭代 次 数 为 ， 则 CPP 算法 的 时 间 复 杂 度 为 


O(t, ((a+b+m)n? +bmt (m n))) , 


算法 1: CPP 算法 

输入 : 基于 位 置 的 社交 网 络 G, =U, P, E,W); 初始 预测 空间 C 。 

输出 : 网 络 中 可 能 存在 的 用 户 链 接 Ez 以 及 位 置 链接 E; 。 

1. 基于 单个 用 户 的 签到 时 间 ， 采 用 一 维 核 密度 估计 方式 建 模 用 户 
的 签到 行为 概率 分 布 x ， 进 而 得 用 户 之 间 的 相似 度 sim, (u,v) ; 

2. 基于 用 户 历史 访问 位 置 的 经 纬度 信息 ， 采 用 二 维 核 密度 估计 方 
式 建 模 用 户 的 空间 容忍 度 信息 ， 得 到 每 个 用 户 访问 新 位 置 的 概率 
P(p|S) ; 

3. dE T Gb og SCA FH P EZH C, HEHN -AERE F ; 

4. repeat 

5. // 用 户 链接 预测 

6. ”依据 式 (13) 计 算 > 间 链 接 的 存在 概率 PI 

7 依据 式 (14) 更 新 dim 概率 P+ ， 得 到 个 性 化 用 户 链接 概 
X Bs 

8. // 位 置 链接 预测 

9. ”依据 式 (17)~(28) 计 算 网 络 中 的 边 权 值 ; 

10. ”依据 式 (15) (16) 计 算 每 个 社团 中 各 位 置 的 到 达 概 率 no ; 

11 依据 式 (23) 计 算 用 户 与 位 置 之 间 链接 存在 的 概率 PY ; 

12 依据 式 (24) 更 新 位 置 链接 概率 PB; , 得 到 个 性 化 的 位 置 链接 
概率 BY ; 

13. 根据 式 (25) 更 新 用 户 -位置 矩 阵 pv ; 

14. until 达到 指定 迭代 次 数 

15. 通过 P" 和 pv 矩阵 得 到 网 络 中 可 能 存在 用 户 链接 Ez RUDI ELE 


BEES; 


4 ”仿真 结果 与 分 析 


4.1 


本 文采 用 
来 源 于 文献 [1 


数据 集 描述 
从 Gowalla 


T]; 


抓 取 到 的 数 : 


居 集 进行 实验 ， 数 据 得 


Yit 


包含 了 


签到 表 。 其 中 
类 别 数 等 信息 
市 以 及 所 属 
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数 不 大 于 2 的 不 活跃 用 户 ， 以 及 删除 被 签到 次 数 小 于 5， 或 
被 签到 用 户 数 不 大 于 2 的 位 置 , 减 小 数据 稀 玻 对 实验 的 影响 。 


表 1 为 处 理 后 的 数据 集 详细 描述 。 
表 1 实验 数据 统计 
Table 1 Experimental data statistics 

数据 集 IP Žr 位 置 数 ”签到 数 ”关系 数 ”类 别 数 

柏林 5510 15528 238972 29207 71 

休斯顿 11138 29383 512977 61221 83 
4.2 实验 结果 分 析 

在 实验 中 ， 首 先 设 定 用 户 链接 预测 以 及 位 置 链接 预测 最 


大 和 迭代 次 数 为 30 次 ， 重 启 随机 游 走 的 重启 概率 5=08 。 调 节 
参数 、 变化 对 比如 图 3 所 示 ， 不 同调 节 参 数 影 响 位 置 链接 预 
测 准确 率 , 在 =04 左右 时 , 位 置 链接 预测 准确 率 最 优 。 用 户 
链接 预测 参数 o. 8 用 于 调节 用 户 的 共同 社团 ， 用 户 共同 好 友 
个 数 以 及 用 户 共同 签到 位 置 个 数 的 权重 对 用 户 链 接 预 测 的 影 
响 。 如 表 2 所 示 ， 在 实际 数据 集中 验证 参数 o 对 用 户 链接 
预测 的 影响 ， 在 8 相对 增 大 时 ， 链 接 预测 准确 率 提 高 ， 且 在 
a=03，B=04 左 右 时 ， 用 户 链接 预测 准确 率 最 优 。 因 此 ， 设 
置 柏林 数据 集中 用 户 链接 预测 参数 "=03 8-04, (KHDEUR 
据 集 “=03 ，8=05 。 仿 真主 要 考虑 了 两 个 因素 对 实验 结果 的 
影响 ， 一 是 不 同比 例 训练 样本 对 不 同方 法 的 影响 ， 二 是 迭代 
次 数 对 本 文 提出 CPP 算法 的 影响 。 


04 0.6 0:8 
调节 参数 入 
图 3 不 同调 节 参 数位 置 链接 预测 准确 率 
Fig. 3 Positional link prediction accuracy of different parameters 
表 2 不 同 a 和 6 用户 链接 预测 准确 率 
Table 2 User link prediction accuracy of different o and 7 


f 0.5 


0.569 
0.698 
0.731 
0.824 
0.849 0.828 0.807 


0.1 
0.2 
0.3 
0.4 


0.5 0.686 0.758 


本 文选 取 了 典型 链接 预测 方法 与 CPP 算法 进行 比较 , 对 
比 算法 包括 : 位 置 的 共同 邻居 (Common Neighbors of Places, 
CNP)08 是 一 种 用 户 链接 预测 算法 , 如 果 两 个 用 户 有 更 多 的 共 
同 朋友 访问 被 其 中 一 个 用 户 访 问 过 的 地 方 ， 则 他 们 之 间 产 生 
链接 的 概率 越 大 ; 改进 的 带 重启 的 随机 游 走 算法 Friend++ U*1 
岂 是 一 种 用 户 链接 预测 算法 ， 该 算法 是 改进 了 传统 重启 随机 
游 走 算法 ， 将 加 权 平 均 方法 集成 到 随机 游 走 方法 中 ， 预 测 用 


所 属 城 


， 时 


本 文 从 原始 数据 中 选取 在 柏林 和 休斯顿 的 签到 


到 次 数 小 于 10， 


或 签到 位 置 


户 链接 概率 ，Rank-GeoFMP0， 位 置 链接 预测 算法 ， 通 过 用 
户 偏好 、 签 到 位 置 以 及 时 间 地 理 上 下 文 的 影响 优化 位 置 排 
函数 ， 得 到 最 优 位置 链 接 ; TRAILr00， 同 时 预测 用 户 链接 
及 位 置 链接 的 算法 ， 通 过 最 大 化 用 户 链接 概率 函数 和 位 
接 概 率 函 数 的 乘积 ， 来 同时 获取 最 优 用 户 链接 以 及 最 优 位 
链接 。 
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AUC 直接 物理 意义 是 ROC 曲线 下 的 面积 ，ROC 曲线 是 


分 类 器 常用 的 性 能 评 


价 指标 。 因 为 一 个 二 分 类 器 在 输出 结果 


主要 采用 <05.055…'09> 这 9 种 标准 来 划分 数据 集 。 为 了 保证 
实验 的 可 靠 性 , 本 文 取 10 次 实验 结果 的 平均 值 作为 最 终 实验 
结果 ,其 中 用 户 链接 预测 的 结果 如 图 4、5 所 示 。 图 4 表示 用 
户 链接 预测 准确 率 的 实验 结果 ， 其 中 横 坐 标 表 示 训 练 集 占 比 
情况 ， 纵 坐标 表示 算法 准确 率 。 图 5 表示 用 户 链接 预测 AUC 
值 的 实验 结果 ， 其 中 横 坐 标 表 示 训 练 集 占 比 情况 ， 纵 坐标 表 


示 算 法 AUC 值 。 
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图 4 用 户 链接 预测 准确 率 对 比 


Fig.4 User link prediction accuracy comparison 
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Fig. 5 User prediction AUC comparison 


是 1 还 是 0， 往往 会 取决 于 输出 概率 和 预 设 的 概率 阔 值 ， 概 


率 阔 值 的 选取 一 定 程 度 影响 分 类 器 的 性 能 ， 为 了 无 论 阔 
采用 了 ROC 


分 类 器 评价 指标 尽 可 能 的 正确 ， 


么 选取 ， 


这 种 衡 
JJ, 通过 AUC 值 可 以 量化 ROC 曲线， 


值 怎 
曲线 


量 指标 ， 但 是 ROC 曲线 只 是 反映 了 分 类 器 的 分 类 能 
直观 呈现 分 类 器 的 能 


JJ, AUC 值 越 大 分 类 效果 越 好 ，AUC 
从 图 4、5 可 以 看 出 ， 随 着 训练 集 比 僵 


的 准确 率 以 及 AUC 值 都 处 于 上 升 趋势 。 且 


的 到 
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E 想 值 为 1 。 
的 增 大 ,所 


方法 
CPP 算法 的 性 能 


始终 优 于 TRAIL 算法 ， 原 因 在 于 TRAIL 算法 未 能 有 效 把 握 


用 户 个 性 化 特征 ， 忽 


pt 


各 了 对 用 户 之 间 行 为 习惯 相似 性 和 用 户 


空间 位 置 容忍 度 的 考 而 CPP 在 入 


MED 9 


法 迭代 的 基础 上 充分 融 
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j 户 在 时 间 和 空间 上 的 个 性 化 特征 ， 使 得 预测 结果 得 以 


提升 .CPP 算法 和 TRAIL 算法 性 能 明显 优 于 CNP 和 Friend++， 


原因 在 于 Friend++ 算 法 仅 利 用 到 了 用 


站 的 社交 关系 ， 而 没有 


考虑 用 


能 不 太 理 想 。 


户 的 签到 关系 ， 所 以 对 于 信息 的 利用 
CNP 以 及 Friend++ 算 法 未 能 融入 迭代 思想 ,从 而 导致 算法 性 


不 够 完善 ， 同 时 


表 3 位 置 链接 预测 各 项 性 能 指标 对 比 


Table 3 Location link prediction performance indicators comparison 


数据 集 柏林 数据 集训 练 集 比例 休斯顿 数据 集训 练 集 比例 

指标 方法 05 06 07 08 09 05 06 07 08 09 
Rank-GeoFM 0.652 0.671 0.703 0.721 0.755 0.635 0.646 0.688 0.717 0.739 
AUC TRAILr — 0.613 0.683 0.719 0.748 0.765 0.623 0.643 0.679 0.714 0.746 
CPP 0.715 0.744 0.785 0.825 0.842 0.706 0.733 0.766 0.795 0.814 


Rank-GeoFM 0.611 0.632 0.667 0.684 0.705 0.591 0.617 0.634 0.659 0.689 


准确 率  TRAILT 


CPP 


0.597 0.628 0.663 0.698 0.723 0.598 0.623 0.645 0.653 0.708 
0.709 0.734 0.779 0.816 0.857 0.699 0.716 0.742 0.779 0.807 


休斯顿 数据 集中 所 


法 预测 性 能 下 降 。 


位 置 链接 预测 的 实验 结果 如 表 3 所 示 。 从 表 中 可 以 看 出 ， 
算法 的 准确 率 以 及 AUC 值 都 偏 低 ， 原 
1 顿 数据 集 偏 大 ， 网 络 中 的 数据 稀 玻 性 较 强 ， 


同时 可 以 看 出 ，CPP 算法 的 预测 性 能 始终 


导致 算 


最 优 ， 因 为 CPP 算法 集合 了 社团 知识 以 及 个 性 化 选择 ， 所 以 


网络 中 可 能 的 位 
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结果 如 图 6 Br. n] 
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次 实验 取 平 均值 作为 预测 结果 。 实 验 
以 明显 看 出 ， 随 着 迭代 次 数 的 增加 ， 用 


户 链接 预测 以 及 位 置 链接 预测 的 AUC 值 均 不 断 提升 ， 当 大 
代 次 数 到 达 30 次 左右 时 , AUC 值 趋 于 平稳 。 实 验证 明了 CPP 
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录用 定稿 
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图 6 AUC 值 随 迭 代 次 数 变 化 对 比 


Fig.6 AUC comparison with the number of iterations 
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